Estadística I

Clase 1: Describir los Datos

Autores/as
Afiliación
Fecha de publicación

20 de marzo de 2025

Aproximación Concepto “Estadística”

Los científicos buscan responder preguntas utilizando métodos rigurosos y observaciones cuidadosas. Estas observaciones —recogidas a partir de notas de campo, encuestas y experimentos, entre otros— forman la columna vertebral de una investigación estadística y se denominan datos. 

La estadística es el estudio sobre cómo recolectar, analizar y sacar conclusiones de los datos de la mejor manera posible.

Propiedades de los Datos

Estudio de caso: 

Uso de stents para prevenir accidentes cerebro vasculares


paciente group 0-30 días 0-365 días
1 treatment stroke stroke
2 treatment stroke stroke
3 treatment stroke stroke
450 control no event no event
451 control no event no event

Datos Tabulares

Hay observaciones que generalmente en los datos tabulares estarán representados por (filas) , las cuales a su vez contienen distintos atributos o variables, que generalmente corresponden a las (columnas).

paciente group outcome
116 treatment no event
162 treatment no event
217 treatment no event
285 control no event
326 control no event

Asignados por Grupo

Characteristic N = 4511
group
    control 227 (50%)
    treatment 224 (50%)
1 n (%)
  • Cantidad de pacientes en grupo de:

    • tratamiento (50%)

    • control (50%)

grupos están balanceados

Resultados 0 a 30 días:

           outcome
group       no event stroke
  control        214     13
  treatment      191     33

Resultado 0 a 365 días:

           outcome
group       no event stroke
  control        199     28
  treatment      179     45

Tabla con Estadística Descriptiva: 

Characteristic
0-30 días
0-365 días
no event
N = 4051
stroke
N = 461
no event
N = 3781
stroke
N = 731
group



    control 214 (94%) 13 (5.7%) 199 (88%) 28 (12%)
    treatment 191 (85%) 33 (15%) 179 (80%) 45 (20%)
1 n (%)

Cálculos de Valores Estadísticos Representativos

Characteristic
0-30 días
0-365 días
no event
N = 4051
stroke
N = 461
no event
N = 3781
stroke
N = 731
group



    control 214 (94%) 13 (5.7%) 199 (88%) 28 (12%)
    treatment 191 (85%) 33 (15%) 179 (80%) 45 (20%)
1 n (%)

Análisis Resultados Obtenidos

  • De los 224 pacientes del grupo de tratamiento:

    • 33 sufrieron un ACV antes de los 30 primeros días

    • 45 sufrieron un ACV al antes del final de primer año

  • De los 227 pacientes del grupo de control:

    • 13 sufrieron un ACV antes de los 30 primeros días

    • 28 sufrieron un ACV al antes del final de primer año

En primer lugar, es contrario a lo que los médicos esperaban, que era que los stents reducirían la tasa de accidentes cerebrovasculares. En segundo lugar, nos lleva a una pregunta estadística: ¿muestran los datos una diferencia real entre los grupos?
Esta segunda pregunta es sutil. Supongamos que lanzamos una moneda 100 veces. Si bien la probabilidad de que una moneda salga cara en cualquier lanzamiento es del 50 %, probablemente no observemos exactamente 50 caras. Este tipo de fluctuación forma parte de casi cualquier proceso de generación de datos. Es posible que la diferencia del 8 % en el estudio de los stents se deba a esta variación natural. Sin embargo, cuanto mayor sea la diferencia que observamos (para un tamaño de muestra determinado), menos creíble es que se deba al azar. Por lo tanto, lo que realmente nos preguntamos es lo siguiente: ¿es la diferencia tan grande que deberíamos rechazar la idea de que se debió al azar?

PRECAUCION: NO GENERALIZAR

Pregunta Clave a Responder

¿Los datos representados muestran que existe una diferencia entre los dos grupos?

Supongamos que lanzas una moneda 100 veces. Si bien la probabilidad de que salga cara en cualquier lanzamiento es del 50 %, probablemente no observemos exactamente 50 caras. Este tipo de fluctuación forma parte de casi cualquier proceso de generación de datos.

La diferencia observada anteriormente entre los dos grupos puede ser real o deberse a la variación natural.

Dado que la diferencia es bastante grande, es más creíble que sea real.

Utilizamos herramientas estadísticas para determinar si la diferencia es tan grande que deberíamos rechazar la idea de que se debió al azar.

Ejercicio

La migraña es un tipo de dolor de cabeza particularmente doloroso, que los pacientes a veces desean tratar con acupuntura. 

Para determinar si la acupuntura alivia el dolor migrañoso, los investigadores realizaron un estudio controlado aleatorizado en el que 89 mujeres diagnosticadas con migraña fueron asignadas aleatoriamente a uno de dos grupos:

  • grupo tratamiento: 43 pacientes del grupo de tratamiento recibieron acupuntura específicamente diseñada para tratar las migrañas.

  • grupo control: 46 pacientes del grupo control recibieron acupuntura placebo (inserción de agujas en puntos distintos a los de acupuntura). 

24 después de recibir la acupuntura, se les preguntó si no sentían dolor.

Tabla Resultados

           pain_free
group       no yes
  control   44   2
  treatment 33  10

Preguntas a Responder

Characteristic no
N = 771
yes
N = 121
group

    control 44 (96%) 2 (4.3%)
    treatment 33 (77%) 10 (23%)
1 n (%)

a) ¿Qué porcentaje de pacientes del grupo de tratamiento no tenían dolor 24 horas después de recibir acupuntura?

(b) ¿Qué porcentaje del grupo de control no tuvo dolor? Se realizaron pruebas repetidas con el dolorímetro.

Preguntas a Responder

Characteristic no
N = 771
yes
N = 121
group

    control 44 (96%) 2 (4.3%)
    treatment 33 (77%) 10 (23%)
1 n (%)

(c) ¿En qué grupo hubo un mayor porcentaje de pacientes que no sintieron dolor 24 horas después de recibir acupuntura?

Preguntas a Responder- continuación:

(d) Sus hallazgos hasta el momento podrían sugerir que la acupuntura es un tratamiento eficaz para las migrañas en todas las personas que las padecen. 

Sin embargo, esta no es la única conclusión posible que se puede extraer con base en sus hallazgos. 

¿Cuál es otra posible explicación para la diferencia observada entre los porcentajes de pacientes sin dolor 24 horas después de recibir acupuntura en los dos grupos?

Tipos de Variables

Variables Conjunto de Datos

loan_amount interest_rate term grade state total_income homeownership
20000 5.32 36 A MA 270000 rent
15000 16.02 36 C NJ 50000 rent
12000 5.31 36 A HI 120000 mortgage
6000 7.96 36 A CA 100000 rent
6400 9.92 36 B IN 67000 mortgage
30000 7.35 36 A CA 103000 rent
18000 9.93 60 B MA 218000 mortgage
15000 6.08 36 A TX 77500 mortgage

Descripción Variables

Variable Descripción
loan_amount Monto del préstamo recibido, en dólares estadounidenses.
interest_rate Tasa de interés del préstamo, en porcentaje anual.
term El plazo del préstamo, que siempre se establece como un número entero de meses.
grade Calificación del préstamo, que toma valores de A a G y representa la calidad del préstamo y su probabilidad de ser reembolsado.
state Estado de EE.UU. donde reside el prestatario.
total_income Ingreso total del prestatario, incluyendo cualquier segundo ingreso, en dólares estadounidenses.
homeownership Indica si la persona es propietaria, es propietaria pero tiene una hipoteca, o alquila.

Clasificar Cada Variable Según Tipo

Variable Tipo Variable
loan_amount
interest_rate
term
grade
state
total_income
homeownership

Ejercicio:

Crear una estructura de datos tabulares con el plan de evaluación del curso

Relaciones Entre Variables

Variables Asociadas

Cuando dos variables muestran algún tipo de conexión se dice que están asociadas.

Debido a que hay una tendencia a la baja en la Figura 1.8 (los condados con más unidades en estructuras de unidades múltiples están asociados con una menor propiedad de vivienda), se dice que estas variables están asociadas negativamente. Se muestra una asociación positiva en la relación entre el ingreso medio hh y el cambio pop en la Figura 1.9, donde los condados con un ingreso familiar medio más alto tienden a tener tasas más altas de crecimiento poblacional.

Si dos variables no están asociadas se dice que son independientes. Es decir, dos variables son independientes si no existe una relación evidente entre ellas.

Variables explicativas y de respuesta.

  • Variables Explicativas: Se refiere a la variable que se utiliza para explicar o predecir los cambios en otra variable. Por lo tanto, “explicativa” captura esta esencia.

  • Variable de Respuesta: Se refiere a la variable que se ve afectada o responde a los cambios en la variable explicativa. Por lo tanto, “de respuesta” es la traducción precisa.

Cuando hacemos preguntas sobre la relación entre dos variables, a veces también queremos determinar si el cambio en una variable provoca un cambio en la otra. Considere lo siguiente reformulación de una pregunta anterior sobre el conjunto de datos del condado: Si hay un aumento en el ingreso familiar medio en un condado, ¿impulsa esto una aumento de su población? En esta pregunta, nos preguntamos si una variable afecta a otra. Si este es nuestro subyacente creencia, entonces el ingreso familiar medio es la variable explicativa y el cambio poblacional es el variable de respuesta en la relación hipotética.